数据来源 [Cortez et al., 2009].

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties.

In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

数据集变量

数据集描述

## [1] 1599   12
## 'data.frame':    1599 obs. of  12 variables:
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : Factor w/ 6 levels "3","4","5","6",..: 3 3 3 4 3 3 3 5 5 3 ...
##  fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00      
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00      
##  Median :0.07900   Median :14.00       Median : 38.00      
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47      
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00      
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00      
##     density             pH          sulphates         alcohol      quality
##  Min.   :0.9901   Min.   :2.740   Min.   :0.3300   Min.   : 8.40   3: 10  
##  1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   4: 53  
##  Median :0.9968   Median :3.310   Median :0.6200   Median :10.20   5:681  
##  Mean   :0.9967   Mean   :3.311   Mean   :0.6581   Mean   :10.42   6:638  
##  3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   7:199  
##  Max.   :1.0037   Max.   :4.010   Max.   :2.0000   Max.   :14.90   8: 18

是否有空值

## [1] FALSE

数据集有12个变量,1599条记录

单变量分析

红酒质量

红酒质量 符合正态分布, 质量特别好的红酒和质量特比差的红酒数量相对较少。最多的是质量中等的红酒。

酒精浓度

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##   8.4   9.1   9.5  10.2  11.1  12.8  14.9

95%的红酒中的酒精浓度分布在9.1~12.8之间,分布比较集中,过高过低酒精含量的红酒都比较罕见。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "1.528e-10"

p-value<0.05, 酒精浓度 不符合正态分布

硫酸盐

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##  0.33  0.44  0.55  0.62  0.73  1.08  2.00

95%的红酒中的硫酸盐添加剂分布在0.44~1.08之间。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                           "5.96e-12"

p-value<0.05, 硫酸盐添加剂 不符合正态分布

pH

##    Min   2.5%    25%    50%    75%  97.5%    Max 
## 2.7400 3.0195 3.2100 3.3100 3.4000 3.6105 4.0100

95%的红酒中的pH分布在3.02~3.61之间, 大部分红酒是弱酸性的。

##                             isNormal                               method 
##                               "TRUE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                            "0.05398"

p-value>0.05, pH 符合正态分布

密度

##      Min     2.5%      25%      50%      75%    97.5%      Max 
## 0.990070 0.992939 0.995600 0.996750 0.997835 1.000400 1.003690

密度与水十分接近,存在微小的差距。

##                             isNormal                               method 
##                               "TRUE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                            "0.07139"

p-value>0.05, 密度 符合正态分布

二氧化硫

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##     6    10    22    38    62   131   289

95%的红酒中二氧化硫含量集中在10~131之间。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "7.707e-12"

p-value<0.05, 二氧化硫含量 不符合正态分布

带硫元素的离子

##    Min   2.5%    25%    50%    75%  97.5%    Max 
##  1.000  3.000  7.000 14.000 21.000 40.525 72.000

95%的红酒中带硫元素的离子含量在3.00~40.53之间。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "3.134e-10"

p-value<0.05, 硫元素的离子含量 不符合正态分布

非挥发性酸

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##   4.6   5.6   7.1   7.9   9.2  12.5  15.9

95%的红酒中非挥发性酸含量在5.6~12.5之间。

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "2.016e-09"

p-value<0.05, 非挥发性酸 不符合正态分布

挥发酸

##   Min  2.5%   25%   50%   75% 97.5%   Max 
## 0.120 0.240 0.390 0.520 0.640 0.915 1.580

95%的红酒挥发酸的含量主要集中在0.24~0.92

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                            "0.02984"

p-value<0.05, 挥发性酸 不符合正态分布

柠檬酸

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##  0.00  0.00  0.09  0.26  0.42  0.66  1.00

95%的红酒柠檬酸的含量集中在0.00~0.66

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "1.867e-06"

p-value<0.05, 柠檬酸 不符合正态分布

剩余糖分

##   Min  2.5%   25%   50%   75% 97.5%   Max 
##   0.9   1.4   1.9   2.2   2.6   6.3  15.5

95%的红酒剩余糖分的含量集中在1.4~6.3

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "< 2.2e-16"

p-value<0.05, 剩余糖分 不符合正态分布

含盐量

##   Min  2.5%   25%   50%   75% 97.5%   Max 
## 0.012 0.048 0.070 0.079 0.090 0.205 0.611

95%的红酒含盐量集中在0.048~0.205

##                             isNormal                               method 
##                              "FALSE" "Two-sample Kolmogorov-Smirnov test" 
##                          alternative                              p.value 
##                          "two-sided"                          "< 2.2e-16"

p-value<0.05, 含盐量 不符合正态分布

双变量分析

矩阵图

相关性大于0.4:

  • quality & alcohol: 0.476
  • alcohol & density: -0.496
  • density & fixed.acidity: 0.668
  • citric.acid & fixed.acidity: 0.672
  • total.sulfur.dioxide & free.sulfur.dioxide : 0.668
  • pH & fixed.acidity: -0.683
  • pH & citric.acid: -0.542

红酒质量 & 酒精浓度

酒精浓度越高对应的红酒质量大概率会更高。

挥发酸 & 红酒质量

  • 红酒质量评分低于7时,挥发酸含量越低,红酒质量越高
  • 红酒质量评分为7、8时,挥发酸含量影响不大

酒精浓度 & 密度

由图可知,酒精浓度越高,密度越低

非挥发性酸 & 密度

由图可知,非挥发性酸含量越高,密度越大

非挥发性酸 & 柠檬酸

由图可知,非挥发性酸含量越高,柠檬酸含量越高

二氧化硫 & 硫元素离子

由图可知,二氧化硫含量越高,硫元素离子含量越高

非挥发性酸 & pH

由图可知,非挥发性酸越高,pH越低

柠檬酸 & pH

由图可知,柠檬酸越高,pH越低

多变量分析

酒精浓度 & 密度

  • 质量最高的红酒, 酒精含量在9.5~14之间
  • 不同质量的红酒, 酒精量和密度均成反比

非挥发性酸 & 密度

  • 质量最高的红酒,非挥发性酸含量在5~13之间
  • 质量最高的红酒,密度均小于1

非挥发性酸 & 柠檬酸

质量最高的红酒, 柠檬酸占据整个柠檬酸值范围,说明柠檬酸含量和红酒质量没有关系

二氧化硫 & 硫元素离子

  • 质量最高的红酒(quality 8), 二氧化硫含量均低于100
  • 质量其次的红酒(quality 7),二氧化硫含量有两个异常值,接近300, 其他在106以内
  • 红酒质量和二氧化硫含量没有相关性

非挥发性酸 & pH

  • 质量最高的红酒, pH值在2.8~3.8之间,在整个取值区间,基本均匀分布
  • 质量最低的红酒, pH值在3.16~3.63之间,比较集中
  • 红酒质量和pH值没有相关性

挥发酸 & 酒精浓度

挥发性酸不高,酒精浓度不低的情况下,红酒质量比较好。

最终汇总

质量分布

大部分评分集中在5和6,高分低分都比较少。

红酒质量 & 酒精浓度

较高质量的红酒有相对较高的酒精浓度。

挥发酸 & 酒精浓度

挥发性酸不高,酒精浓度不低的情况下,红酒质量比较好。

反思

整个分析过程主要围绕红酒质量和与他相关度较高的几个变量进行分析,分析过程中也分析了一些其他的变量。

始终没有发现某一化学物质和红酒质量有强相关性。初步分析时由于挥发性酸和质量间的相关性为0.39<0.4,没有分析这个变量,后来尝试分析,得到更多有意义的结论。

分析过程,不必要有精确条件才开始分析,接近的条件,也可尝试分析。